Week 4: Exploratory Data Analysis and Visualization

2758501 สถิติและสารสนเทศทางการศึกษา

Assistant Prof. Dr. Siwachoat Srisuttiyakorn

Department of Educational Research and Psychology
Faculty of Education Chulalongkorn University

2025-02-11

Types of Data Analysis

Statistical Problem Process

https://www.amstat.org/asa/files/pdfs/GAISE/GAISEIIPreK-12_Full.pdf

Exploratory Data Analysis (EDA)

เป็นกระบวนการวิเคราะห์สำรวจข้อมูลเบื้องต้น โดยมีวัตถุประสงค์หลักเพื่อ

  • ทำความเข้าใจข้อมูล ตรวจสอบผู้เรียนที่มีลักษณะเฉพาะ

    • การสำรวจการแจกแจงของข้อมูล (distribution)

    • การเปรียบเทียบข้อมูล (comparison)

    • การสำรวจแนวโน้มของข้อมูล (trend)

  • สำรวจ/ค้นหารูปแบบความสัมพันธ์

    • การเปรียบเทียบข้อมูล (comparison)

    • การวิเคราะห์ความสัมพันธ์ (relationship)

  • สนับสนุนการตั้งสมมุติฐานเพื่อนำไปสู่การวิเคราะห์เชิงลึก เช่น การวิเคราะห์เชิงวินิจฉัย หรือการวิเคราะห์เชิงทำนาย

Exploratory Data Analysis (EDA)

  • Statistical Approaches – มีความเป็นปรนัยสูง แต่ขาดการบรรยายภาพรวมของข้อมูลได้อย่างครอบคลุม และในบางกรณีหากข้อมูลไม่เป็นไปตามข้อตกลงเบื้องต้น ผลการวิเคราะห์ที่ได้อาจมีความคลาดเคลื่อน

  • Graphical Approaches (Data Visualization) – ให้สารสนเทศที่เป็นสภาพจริงของข้อมูลมากกว่า แต่อาจขาดความเป็นปรนัยในเชิงของการตีความหมายของผู้รับสาร เพราะไม่ได้มีการแสดงผลในเชิงปริมาณที่ชัดเจน

Exploratory Data Analysis (EDA)

  • ตัวแปรเดียว \(\rightarrow\) เน้นบรรยายสภาพ/ทำความเข้าใจข้อมูลในมิติเดียว อาจกล่าวว่าเป็นการสำรวจการแจกแจงของข้อมูล (distribution)

  • สองตัวแปรหรือมากกว่า \(\rightarrow\) เน้นการสำรวจทำความเข้าใจในมิติที่ครอบคลุมปัจจัยต่าง ๆ มากขึ้น ได้คำตอบที่ลึกขึ้น ได้แก่

    • การเปรียบเทียบ (comparison)

    • การวิเคราะห์ความสัมพันธ์ (relationship)

Note: ปัจจัยสำคัญที่ควรพิจารณาประกอบการเลือกวิธีการวิเคราะห์ในเบื้องต้นคือ

  • ประเภทของตัวแปร : ตัวแปรเชิงปริมาณ หรือ ตัวแปรจัดประเภท หรือมีร่วมกันทั้งสองประเภทในหนึ่งการวิเคราะห์

  • ความหมายของผลการวิเคราะห์ที่ได้รับ : สามารถตอบคำถามที่ต้องการได้่ มีความหมายสมเหตุสมผล เข้าใจได้และสามารถนำไปใช้เพื่อสื่อสารได้

ประเภทข้อมูลในชั้นเรียน

  • ผลการเรียน/ผลสัมฤทธิ์ทางการเรียนของผู้เรียน (academic performance data)

    • คะแนนสอบในอดีต

    • ผลการสอบเพื่อประเมินพื้นฐาน

    • ผลการตอบคำถามหรือข้อสอบของนักเรียน

    • คะแนนสอบปัจจุบัน/เกรดเฉลี่ยสะสม

  • ภูมิหลังของนักเรียน

    • อายุ เพศ ระดับการศึกษา

    • สถานภาพของครอบครัว ฐานะทางเศรษฐกิจของครอบครัว

    • สาขาวิชา เป้าหมายการเรียน

ประเภทข้อมูลในชั้นเรียน

  • พฤติกรรมการเรียนรู้ – ลักษณะ/รูปแบบการเรียนรู้ของนักเรียน

    • การเข้าชั้นเรียน

    • การส่งงาน

    • เวลาที่ใช้ในการทำการบ้าน/งานที่มอบหมาย

    • การทบทวน/อ่านหนังสือนอกเวลา

  • ปฏิสัมพันธ์ในชั้นเรียน – การสื่อสาร/การมีส่วนร่วมระหว่างนักเรียนกับครู หรือนักเรียนกับนักเรียนในบริบทการเรียนรู้ในชั้นเรียน

    • ความถี่ในการยกมือตอบคำถาม

    • ความถี่ในการเสนอความคิดเห็นในการอภิปรายภายในกลุ่ม

    • การร่วมกิจกรรมในชั้นเรียน

ประเภทข้อมูลในชั้นเรียน

  • จิตวิทยาและอารมณ์ – ช่วยให้ผู้สอนทำความเข้าใจหรือทราบสภาพของผู้เรียนในมิติเชิงอารมณ์/ความรู้สึก เช่น

  • ด้านอื่น ๆ เช่น ทักษะ/ความสามารถ การคิดเชิงเหตุผล ความฉลาดทางอารมณ์ …

EDA 1: ทำความเข้าใจสภาพข้อมูล

ตัวอย่างคำถามในชั้นเรียนที่เกี่ยวข้องกับการสำรวจการแจกแจงข้อมูล

  • ผู้เรียนในชั้นเรียนมีพื้นฐานความรู้ในระดับใด

  • ผู้เรียนพื้นฐานน้อยในหัวข้อใด

  • ภายหลังดำเนินการสอนไประยะหนึ่งแล้ว ผู้เรียนตอบสนองต่อการเรียนรู้ได้ดีหรือไม่

  • ผู้เรียนคนใดที่มักจะแก้ปัญหาหรือทำข้อสอบในระดับยากไม่ได้

  • มีนิสิตที่มีผลการเรียนหรือพฤติกรรมการเรียนรู้ที่มีความเสี่ยงหรือไม่

  • มีผู้เรียนที่มีความเสี่ยงในด้านอารมณ์/สังคมหรือไม่

EDA 1: ทำความเข้าใจสภาพข้อมูล

การวิเคราะห์มักเกี่ยวข้องกับการสำรวจลักษณะโดยรวมของการแจกแจงของข้อมูล ขอบเขตของข้อมูล แนวโน้มสู่ส่วนกลาง การกระจาย และตำแหน่งเชิงสัมพัทธ์ของข้อมูล

  • การแจกแจงความถี่ (frequency distribution)

    • ตารางแจกแจงความถี่ (frequency table)

    • ฮิสโทแกรมหรือแผนภาพความหนาแน่น (histogram or density plot)

    • แผนภาพกล่อง (boxplot)

    • แผนภูมิแท่ง (bar chart)

  • การวิเคราะห์ด้วยสถิติพื้นฐาน หรือ summary statistics

    • การวัดแนวโน้มสู่ส่วนกลาง เช่น Mean, Median, Mode

    • การวัดการกระจาย เช่น พิสัย ส่วนเบี่ยงเบนมาตรฐาน

    • การวัดตำแหน่งข้อมูล เช่น ค่าต่ำสุด/สูงสุด, Percentile, Quartile

สถานการณ์ตัวอย่าง

อาจารย์ผู้สอนในรายวิชาวิจัยกำลังเตรียมตัวสำหรับการสอนในภาคการศึกษาหน้า ทั้งนี้อาจารย์ได้ลองรวบรวมข้อมูลการเรียนรู้ที่ผ่านมาในรายวิชาสถิติซึ่งเป็นวิชาที่นิสิตกลุ่มนี้ได้ลงทะเบียนในภาคการศึกษาก่อนหน้า

Rows: 367
Columns: 10
$ Student_id        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1…
$ Department        <chr> "ไทยสังคม", "ภาษาอังกฤษ", "การศึกษาปฐมวัย", "การศึกษาปฐมวั…
$ StatKnowledge     <dbl> 57.79762, 42.79762, 53.51852, 51.29630, 52.40741, 29…
$ Concepts          <dbl> 57.14286, 57.14286, 75.00000, 58.33333, 58.33333, 25…
$ Interpret         <dbl> 56.25000, 31.25000, 55.55556, 55.55556, 38.88889, 33…
$ ChooseMethod      <dbl> 60, 40, 30, 40, 60, 30, 20, 30, 70, 50, 30, 20, 50, …
$ StatSubmitTime    <dbl> 156.41160, 145.08406, 145.92416, 128.12002, 139.8148…
$ StatPercentSubmit <dbl> 66.66667, 100.00000, 100.00000, 100.00000, 100.00000…
$ StatLearnPerform  <dbl> 95.00000, 73.33333, 82.50000, 73.75000, 78.75000, 78…
$ StatCheatBehav    <dbl> 0.9143358, 0.5934895, 1.0000000, 0.5159800, 0.641961…

Distribution: Quantitative Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร?

Distribution: Quantitative Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร?

Distribution: Quantitative Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร?

Distribution: Quantitative Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร?

Distribution: Quantitative Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร?

Distribution: Categorical Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร : บางกรณีการกำหนดเกณฑ์มาตรฐานเพื่อใช้ในการประเมิน เป็นวิธีการที่ช่วยให้ผู้วิเคราะห์ทำความเข้าใจข้อมูลได้ง่ายขึ้น


flowchart LR

A["StatKnowledge \n Score"] --> B["StatKnowledge > 50 ==> Pass"]
A --> C["StatKnowledge <= 50 ==> Fail"]

Distribution: Categorical Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร : บางกรณีการกำหนดเกณฑ์มาตรฐานเพื่อใช้ในการประเมิน เป็นวิธีการที่ช่วยให้ผู้วิเคราะห์ทำความเข้าใจข้อมูลได้ง่ายขึ้น


flowchart LR

A["StatKnowledge \n Score"] --> B["StatKnowledge > 50 ==> Pass"]
A --> C["StatKnowledge <= 50 ==> Fail"]

Distribution: Categorical Data

พื้นฐานความรู้ทางสถิติของผู้เรียนเป็นอย่างไร : บางกรณีการกำหนดเกณฑ์มาตรฐานเพื่อใช้ในการประเมิน เป็นวิธีการที่ช่วยให้ผู้วิเคราะห์ทำความเข้าใจข้อมูลได้ง่ายขึ้น


flowchart LR

A["StatKnowledge \n Score"] --> B["StatKnowledge > 75 ==> Good"]
A --> C["50 < StatKnowledge <= 75 ==> Pass"]
A --> D["StatKnowledge <= 50 ==> Fail"]

Distribution: Categorical Data

ภูมิหลังของผู้เรียน

Wrap-up ทำความเข้าใจผู้เรียน 1

Note: พื้นฐานทางสถิติมีความจำเป็นต่อการเรียนรายวิชาวิจัยหรือไม่?

  • Experience-based

  • Theory-based

  • Data-driven

Wrap-up ทำความเข้าใจผู้เรียน 2

พฤติกรรมการเรียนรู้ของผู้เรียน

ระยะเวลาโดยเฉลี่ยที่นักเรียนใช้ทำการบ้าน/งานที่มอบหมาย (ชั่วโมง)

     StatSubmitTime
Mean      138.51537
SD         28.47282
Min        26.18205
Q1        127.92674
Med       144.98898
Q3        155.49646
Max       232.97064

Note: ควรให้เวลาทำการบ้าน/งานที่มอบหมายแก่ผู้เรียนมากขึ้นหรือไม่ ?

Wrap-up ทำความเข้าใจผู้เรียน 3

Variable Mean SD Min Q1 Med Q3 Max
StatCheatBehav 0.78 0.18 0.24 0.65 0.81 0.96 1
StatLearnPerform 77.46 11.58 38.33 71.34 80.00 85.00 100
StatPercentSubmit 92.87 11.83 37.50 88.89 100.00 100.00 100

EDA 2: สำรวจรูปแบบ/ความสัมพันธ์ในข้อมูล

  • ผู้เรียนที่พื้นฐานน้อยในชั้นเรียนมีภูมิหลัง หรือ พฤติกรรมการเรียนรู้เป็นอย่างไร

    • ทำความเข้าใจภูมิหลัง/พฤติกรรมการเรียนรู้ของกลุ่มผู้เรียนพื้นฐานน้อย

    • เปรียบเทียบความแตกต่างของภูมิหลัง/พฤติกรรมการเรียนรู้ของผู้เรียนระหว่างกลุ่มพื้นฐานน้อยกับมีพื้นฐาน

    • พฤติกรรมการเรียนใดที่มีแนวโน้มเป็นปัญหาในกลุ่มผู้เรียนพื้นฐานน้อย

  • พื้นฐานความรู้ทางสถิติมีความสัมพันธ์กับคะแนนสอบ Midterm รายวิชาวิจัยหรือไม่

  • ปัจจัยใดที่มีความสัมพันธ์หรือเกี่ยวข้องกับผลการเรียนรู้ของผู้เรียน

  • ปัจจัยใดที่มีความสัมพันธ์กับความสามารถในการแก้โจทย์ปัญหาหรือทำข้อสอบระดับยากของผู้เรียน

  • พื้นฐานทางสถิติมีความจำเป็นต่อการเรียนรายวิชาวิจัยหรือไม่?

  • ควรให้เวลาทำการบ้าน/งานที่มอบหมายแก่ผู้เรียนมากขึ้นหรือไม่ ?

EDA 2: สำรวจรูปแบบ/ความสัมพันธ์ในข้อมูล

  • การเปรียบเทียบ (comparison) – ใช้เครื่องมือเดียวกับการวิเคราะห์ตัวแปรเดียวแต่มีการจำแนกผลการสำรวจ/วิเคราะห์หลักด้วยตัวแปรจัดประเภทอีกตัวหนึ่ง เช่น เปรียบเทียบคะแนนสอบ midterm จำแนกตามพฤติกรรมการส่งงาน (ส่งครบ/ไม่ครบ)

    • ตารางแจกแจงความถี่หลายทาง (multi-way frequency table)

    • ฮิสโทแกรมหรือแผนภาพความหนาแน่น

    • แผนภาพกล่อง (boxplot)

    • แผนภูมิแท่งเปรียบเทียบ (sided/grouped bar chart)

    • แผนภูมิแท่งเชิงซ้อน (stacked bar chart)

    • สถิติพื้นฐาน เช่น การเปรียบเทียบค่ากลางระหว่างกลุ่มข้อมูล

    • Pareto Chart (เหมาะกับการระบุปัจจัยสำคัญที่คาดว่าจะมีความสัมพันธ์กับปัญหาที่พบ)

EDA 2: สำรวจรูปแบบ/ความสัมพันธ์ในข้อมูล

  • การวิเคราะห์ความสัมพันธ์ (relationship) – ความสัมพันธ์ หมายถึงการเชื่อมโยงระหว่างตัวแปรสองตัวหรือมากกว่า ซึ่งอาจแสดงในรูปแบบของการเปลี่ยนแปลงร่วมกัน (สหสัมพันธ์) หรือผลกระทบที่ตัวแปรหนึ่งส่งต่ออีกตัวหนึ่ง (ความสัมพันธ์เชิงสาเหตุ) โดยความสัมพันธ์สามารถมีลักษณะเป็นเชิงบวก เชิงลบ หรือไม่มีความสัมพันธ์ ทั้งนี้ การวิเคราะห์ความสัมพันธ์ช่วยทำความเข้าใจลักษณะข้อมูล ตั้งสมมุติฐาน และพยากรณ์ผลลัพธ์ในอนาคต

    • แผนภาพกล่อง (boxplot) – เหมาะสำหรับการสำรวจความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณกับตัวแปรจัดประเภท

    • แผนภาพการกระจาย (scatter plot) – เหมาะสำหรับสำรวจความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณ

    • สัมประสิทธิ์สหสัมพันธ์ (correlation coefficients) – ค่าสถิติพื้นฐานที่ถูกพัฒนาขึ้นเพื่อวัดสหสัมพันธ์ระหว่างตัวแปรสองตัว

Comparison: Density plot

Density plot สามารถใช้เปรียบเทียบการแจกแจงของข้อมูลระหว่างกลุ่มต่าง ๆ เช่น ที่ผ่านมาผู้เรียนที่พื้นฐานน้อยในชั้นเรียนมีพฤติกรรมการเรียนในชั้นเรียนเป็นอย่างไร

Comparison: Density plot

จุดเด่นของ Densityplot

  • ช่วยให้เห็นลักษณะการแจกแจงของข้อมูลในแต่ะละกลุ่ม

  • ช่วยเปรียบเทียบการแจกแจงของข้อมูลหลายมิติไปพร้อมกัน เช่น ค่ากลาง การกระจาย

  • แสดงการซ้อนทับของแต่ละกลุ่ม ซึ่งบ่งชี้ระดับความแตกต่างหรือความใกล้เคียงของข้อมูล

อย่างไรก็ตามการใช้ density plot อาจมีข้อจำกัดดังนี้

  • การตีความที่อาจไม่สามารถสร้างข้อสรุปที่มีความเป็นปรนัย

  • ไม่เหมาะกับข้อมูลขนาดเล็ก อาจทำให้การประมาณค่าความหนาแน่นคลาดเคลื่อน

  • ลักษณะแผนภาพจะเปลี่ยนแปลงไปตามค่า Bandwidth (bw) ที่กำหนด ซึ่งอาจทำให้การตีความคลาดเคลื่อน

Note: ควรใช้ร่วมกับการวิเคราะห์เชิงตัวเลขหรือกราฟอื่น ๆ เพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือและครอบคลุม

Comparison: Density plot

StatKnowledge_group Mean SD Min Q1 Med Q3 Max
Fail 0.79 0.18 0.24 0.68 0.83 0.96 1
Pass 0.74 0.19 0.31 0.58 0.74 0.95 1

Comparison: Density plot

Comparison: Density plot

ในหลายโปรแกรมอาจมี feature ให้ปรับสเกลการแสดงผลของ density plot ซึ่งช่วยให้สามารถเปรียบเทียบการแจกแจงของข้อมูลระหว่างกลุ่มที่จำนวนข้อมูลแตกต่างกันได้ อย่างเหมาะสม

Comparison: Boxplot

ที่ผ่านมาผู้เรียนที่พื้นฐานน้อยในชั้นเรียนมีพฤติกรรมการเรียนในชั้นเรียนเป็นอย่างไร

Comparison: Boxplot

  • Boxplot เปรียบเทียบความแตกต่างของข้อมูลระหว่างกลุ่ม โดยอาศัยค่าสถิติบอกตำแหน่งข้อมูล (ค่าสถิติของ Tukey) จำนวน 5 ค่าได้แก่ ค่าต่ำสุด ควอไทล์ 1, 2, 3 และ ค่าสูงสุด

  • การที่ boxplot สร้างจากค่าสถิติดังกล่าวทำให้การเปรียบเทียบข้อมูลมีความเป็นปรนัยมากขึ้น มีความกระชับ สามารถตีความได้ง่ายขึ้นเพราะในแผนภาพมีจุดอ้างอิงตำแหน่งข้อมูลสำหรับเปรียบเทียบความแตกต่าง

  • สามารถเปรียบเทียบหลายกลุ่มได้ภายในแผนภาพเดียว

  • ช่วยบ่งชี้ข้อมูลที่มีแนวโน้มจะเป็นค่าผิดปกติได้

อย่างไรก็ตาม Boxplot มีข้อจำกัดดังนี้

  • ขาดรายละเอียดของการแจกแจง ซึ่งในกรณีที่การแจกแจงมีลักษณะหลายฐานนิยม อาจะทำให้การแปลความหมายผิดพลาดได้

  • ไม่แสดงจำนวนข้อมูลในแต่ละกลุ่ม

  • ไม่เหมาะกับข้อมูลขนาดเล็ก

  • อาจเข้าใจยากสำหรับผู้ที่ไม่คุ้นเคย

Comparison: Boxplot

เปรียบเทียบข้อมูลหลายกลุ่ม (unsorted)

Comparison: Boxplot

เปรียบเทียบข้อมูลหลายกลุ่ม (sorted)

Comparison: Boxplot

สามารถใช้เปรียบเทียบเพื่อสำรวจแนวโน้มการแจกแจงของข้อมูลตามเวลาได้

Comparison: Boxplot, Jitter & Violin Plot

ข้อจำกัดหนึ่งของ Boxplot คือการที่สร้างจากค่าสถิติเพียง 5 ค่า ซึ่งอาจไม่เพียงพอที่จะสะท้อนลักษณะการแจกแจงของข้อมูลได้อย่างถูกต้อง

Comparison: Boxplot, Jitter & Violin Plot

พื้นฐานด้านสถิติของนิสิตในแต่ละสาขาวิชาเป็นอย่างไร?

Comparison: Pie Chart and Bar Chart

เหมาะสำหรับเปรียบเทียบข้อมูลแบบจัดประเภท

Comparison: Pie Chart and Bar Chart

  • Pie Chart และ Stacked Bar เหมาะสำหรับนำเสนอและเปรียบเทียบสัดส่วน (เปรียบเทียบส่วนย่อยที่สนใจกับทั้งหมด)

  • Side Bars เหมาะสำหรับเปรียบเทียบปริมาณระหว่างส่วนย่อย ซึ่งอาจเป็นจำนวน หรือ ค่าสถิติเช่น ค่าเฉลี่ย มัธยฐาน ก็ได้

วัตถุประสงค์ Pie Chart Stacked Bar Side Bars
เปรียบเทียบส่วนย่อยที่สนใจกับส่วนทั้งหมด Yes Yes No
นำเสนอส่วนย่อยในรูปสัดส่วนอย่างง่าย เช่น 1/2, 1/3, 1/4 Yes No No
เปรียบเทียบปริมาณระหว่างส่วนย่อยหลาย ๆ ส่วน No No Yes
เปรียบเทียบสัดส่วนหลายชุดตามเวลา No Yes No

Comparison: Pie Chart and Bar Chart

Comparison: Pie Chart and Bar Chart

Comparison: Pie Chart and Bar Chart

Pie Chart ไม่เหมาะสำหรับเปรียบเทียบสัดส่วนระหว่างกลุ่มที่มีจำนวนมาก

Comparison: Stacked Bar Chart

พื้นฐานทางด้านสถิติของนักเรียนในแต่ละสาขาวิชาเป็นอย่างไร

Comparison: 100% Stacked Bar Chart

พื้นฐานทางด้านสถิติของนักเรียนในแต่ละสาขาวิชาเป็นอย่างไร

Pareto Chart (0)

https://www.investopedia.com/terms/p/pareto-analysis.asp

Pareto Chart (1)

“roughly 80% of consequences come from 20% of causes”

  • เป็นแผนภูมิที่ใช้แสดงการแจกแจงของปัจจัยที่คาดว่าจะสัมพันธ์กับปัญหา

  • แนวคิดเบื้องหลังมาจาก Pareto Principle

Pareto Chart (2)

วัตถุประสงค์ : ระบุปัจจัยที่สำคัญที่สุดที่คาดว่าจะสัมพันธ์กับปัญหานักเรียนบางส่วนมีความเข้าใจในเนื้อหาไม่เพียงพอ

flowchart LR

A[Data]-->B["คัดกรองนักเรียนที่เป็นปัญหา"]
B-->C["สร้าง Pareto Chart"]
C-->D(("ระบุปัจจัยสำคัญ"))

ขั้นตอนการสร้าง Pareto Chart

  • เก็บรวบรวมข้อมูล case ที่เป็นปัญหา

  • เก็บรวบรวมข้อมูลผลลัพธ์และปัจจัยที่คาดว่าจะมีความสัมพันธ์กับปัญหาของ case ข้างต้น

  • จัดกระทำข้อมูลปัจจัยที่จะนำมาวิเคราะห์โดยทำให้อยู่ในรูปของความถี่ที่แสดงการดำเนินการหรือพฤติกรรมที่ไม่พึงประสงค์

  • จัดเรียงปัจจัยตามความถี่ (ความสำคัญ) จากมากไปน้อย

  • คำนวณความถี่ (ร้อยละ) สะสมของปัจจัย

  • สร้างแผนภูมิ Pareto

Pareto Chart (3): พฤติกรรมการเรียนใดที่มีแนวโน้มเป็นปัญหาในกลุ่มผู้เรียนพื้นฐานน้อย

  • คัดกรองผู้เรียนที่มีปัญหา

flowchart LR
A["StatKnowledge <=50"]--> D["ผู้เรียนที่มีปัญหา 275 คน"]

style A fill:#ffffff, stroke: black, stroke-width: 2px

# A tibble: 275 × 10
   Student_id Department           StatKnowledge Concepts Interpret ChooseMethod
        <dbl> <chr>                        <dbl>    <dbl>     <dbl>        <dbl>
 1        186 ไทยสังคม                       50       50        50             50
 2        299 จิตวิทยาการปรึกษา การแ…          50       50        50             50
 3        150 ไทยสังคม                       49.9     57.1      62.5           30
 4         61 คณิตศาสตร์                      49.8     75        44.4           30
 5        298 จิตวิทยาการปรึกษา การแ…          49.6     66.7      22.2           60
 6        362 การศึกษานอกระบบโรงเรี…          49.4     64.3      43.8           40
 7        283 ธุรกิจและอาชีวศึกษา               49.3     41.7      56.2           50
 8         82 ไทยสังคม                       49.1     33.3      47.1           67
 9        190 คณิตศาสตร์                      49.1     41.7      55.6           50
10         31 ประถมศึกษา                     49.0     57.1      50             40
# ℹ 265 more rows
# ℹ 4 more variables: StatSubmitTime <dbl>, StatPercentSubmit <dbl>,
#   StatLearnPerform <dbl>, StatCheatBehav <dbl>

Pareto Chart (4): พฤติกรรมการเรียนใดที่มีแนวโน้มเป็นปัญหาในกลุ่มผู้เรียนพื้นฐานน้อย

  • เตรียมข้อมูลปัจจัยที่คาดว่าจะสัมพันธ์กับปัญหา

    • StatSubmitTime > 168 –> latesubmit

    • StatPercentSubmit < 100 –> lowsubmit

    • StatLearnPerform < 50 –> lowperform

    • StatCheatBehav > 0.95 –> cheat

Rows: 275
Columns: 14
$ Student_id        <int> 2, 6, 7, 8, 10, 11, 12, 13, 14, 15, 17, 18, 19, 20, …
$ Department        <chr> "ภาษาอังกฤษ", "การศึกษาปฐมวัย", "การศึกษาปฐมวัย", "การศึกษ…
$ StatKnowledge     <dbl> 42.79762, 29.44444, 37.22222, 35.00000, 46.29630, 38…
$ Concepts          <dbl> 57.14286, 25.00000, 25.00000, 41.66667, 50.00000, 41…
$ Interpret         <dbl> 31.25000, 33.33333, 66.66667, 33.33333, 38.88889, 44…
$ ChooseMethod      <dbl> 40, 30, 20, 30, 50, 30, 20, 50, 30, 50, 50, 30, 60, …
$ StatSubmitTime    <dbl> 145.08406, 158.80085, 85.47501, 157.27561, 154.85410…
$ StatPercentSubmit <dbl> 100.00000, 100.00000, 75.00000, 100.00000, 100.00000…
$ StatLearnPerform  <dbl> 73.33333, 78.75000, 68.33333, 80.00000, 63.75000, 55…
$ StatCheatBehav    <dbl> 0.5934895, 0.9997860, 1.0000000, 0.9979919, 0.837343…
$ latesubmit        <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FAL…
$ lowsubmit         <lgl> FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE, FALSE…
$ lowperform        <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FAL…
$ cheat             <lgl> FALSE, TRUE, TRUE, TRUE, FALSE, FALSE, FALSE, TRUE, …

Pareto Chart (5): พฤติกรรมการเรียนใดที่มีแนวโน้มเป็นปัญหาในกลุ่มผู้เรียนพื้นฐานน้อย

แจกแจงความถี่ปัจจัยที่คาดว่าจะสัมพันธ์กับปัญหา

factor problem n cumsum percent_cumsum
lowsubmit TRUE 113 113 57.36
cheat TRUE 45 158 80.20
latesubmit TRUE 27 185 93.91
lowperform TRUE 12 197 100.00

Pareto Chart (6): พฤติกรรมการเรียนใดที่มีแนวโน้มเป็นปัญหาในกลุ่มผู้เรียนพื้นฐานน้อย

“roughly 80% of consequences come from 20% of causes”

  • Vital Few (20%) ปัจจัยจำนวนน้อยที่มีความสำคัญมากที่สุด

  • Useful Many (80%) ปัจจัยจำนวนมากที่มีความสำคัญน้อยกว่า อาจพิจารณาให้ความสำคัญเป็นอันดับรองลงมา

Relationship

ความสัมพันธ์ หมายถึงการเชื่อมโยงระหว่างตัวแปรสองตัวหรือมากกว่า ซึ่งอาจแสดงในรูปแบบของการเปลี่ยนแปลงร่วมกัน (สหสัมพันธ์) หรือผลกระทบที่ตัวแปรหนึ่งส่งต่ออีกตัวหนึ่ง (ความสัมพันธ์เชิงสาเหตุ) โดยความสัมพันธ์สามารถมีลักษณะเป็นเชิงบวก เชิงลบ หรือไม่มีความสัมพันธ์ ทั้งนี้ การวิเคราะห์ความสัมพันธ์ช่วยทำความเข้าใจลักษณะข้อมูล ตั้งสมมุติฐาน และพยากรณ์ผลลัพธ์ในอนาคต

  • แผนภาพกล่อง (boxplot) – เหมาะสำหรับการสำรวจความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณกับตัวแปรจัดประเภท

  • แผนภาพการกระจาย (scatter plot) – เหมาะสำหรับสำรวจความสัมพันธ์ระหว่างตัวแปรเชิงปริมาณ

  • สัมประสิทธิ์สหสัมพันธ์ (correlation coefficients) – ค่าสถิติพื้นฐานที่ถูกพัฒนาขึ้นเพื่อวัดสหสัมพันธ์ระหว่างตัวแปรสองตัว

Relationship: Scatter plot

ใช้ในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรสองตัว โดยการวางจุดข้อมูลแต่ละคู่ในกราฟ 2 มิติ ซึ่งแกนนอน (X-axis) และแกนตั้ง (Y-axis) แสดงค่าของตัวแปรแต่ละตัว

Relationship: Scatter plot

พื้นฐานความรู้ทางสถิติมีความสัมพันธ์กับคะแนนสอบ Midterm รายวิชาวิจัยหรือไม่

Rows: 367
Columns: 10
$ Student_id        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1…
$ Department        <chr> "ไทยสังคม", "ภาษาอังกฤษ", "การศึกษาปฐมวัย", "การศึกษาปฐมวั…
$ StatKnowledge     <dbl> 57.79762, 42.79762, 53.51852, 51.29630, 52.40741, 29…
$ Concepts          <dbl> 57.14286, 57.14286, 75.00000, 58.33333, 58.33333, 25…
$ Interpret         <dbl> 56.25000, 31.25000, 55.55556, 55.55556, 38.88889, 33…
$ ChooseMethod      <dbl> 60, 40, 30, 40, 60, 30, 20, 30, 70, 50, 30, 20, 50, …
$ StatSubmitTime    <dbl> 156.41160, 145.08406, 145.92416, 128.12002, 139.8148…
$ StatPercentSubmit <dbl> 66.66667, 100.00000, 100.00000, 100.00000, 100.00000…
$ StatLearnPerform  <dbl> 95.00000, 73.33333, 82.50000, 73.75000, 78.75000, 78…
$ StatCheatBehav    <dbl> 0.9143358, 0.5934895, 1.0000000, 0.5159800, 0.641961…

Relationship: Scatter plot

พื้นฐานความรู้ทางสถิติมีความสัมพันธ์กับคะแนนสอบ Midterm รายวิชาวิจัยหรือไม่

Relationship: Scatter plot

Relationship: Scatter plot vs Boxplot

  • ข้อมูลเชิงปริมาณบางชุดอาจไม่เหมาะที่จะใช้ scatter plot นำเสนอความสัมพันธ์

  • บางครั้งการแปลงข้อมูลเป็นแบบจัดประเภทแล้วใช้ boxplot ช่วยอาจนำเสนอความสัมพันธ์ได้ชัดเจนกว่า

  • ลองเปรียบเทียบแผนภาพด้านล่างทั้งสองมีความเหมือนหรือแตกต่างกันอย่างไร?

Relationship: Scatter plot vs Boxplot

ผลการวิเคราะห์ที่ได้แตกต่างหรือเหมือนกับ Pareto Chart ก่อนหน้านี้มั้ย อย่างไร?

EDA เพื่อสนับสนุนการตัดสินใจ

ควรให้เวลาทำการบ้าน/งานที่มอบหมายแก่ผู้เรียนมากขึ้นหรือไม่ ?

EDA เพื่อสนับสนุนการตัดสินใจ

แกน X เป็นลำดับการส่งงานของผู้เรียน พิจารณาจาก StatSubmitTime

แกน Y เป็นจำนวนนิสิตสะสม

# A tibble: 367 × 2
    rank StatSubmitTime
   <int>          <dbl>
 1     1           26.2
 2     2           30.0
 3     3           32.7
 4     4           34.8
 5     5           43.2
 6     6           46.6
 7     7           52.4
 8     8           52.5
 9     9           53.1
10    10           54.9
# ℹ 357 more rows

EDA เพื่อสนับสนุนการตัดสินใจ

  • ควรให้เวลาทำการบ้าน/งานที่มอบหมายแก่ผู้เรียนมากขึ้นหรือไม่ ?

  • การตอบคำถามนี้อาจลองวิเคราะห์ความสัมพันธ์ระหว่าง StatSubmitTime กับ Performance และผลการเรียนรายวิชาสถิติ (บันทึกไว้ในชื่อ StatKnowledge)

flowchart LR

A["StatSummitTime"]-->B["StatLearnPerform"]
A-->C["StatKnowledge (StatACH)"]

EDA เพื่อสนับสนุนการตัดสินใจ

Feedback กิจกรรมในชั้นเรียน 1


กลุ่มที่ตอบว่า “ควร”

เวลาที่มากขึ้นช่วยเพิ่มคุณภาพงาน : ผู้ตอบในกลุ่มนี้เชื่อว่าการให้เวลามากขึ้นจะช่วยให้นักเรียนมีโอกาสทำงานให้ดีขึ้น ลดความเร่งรีบ และสามารถพัฒนาคุณภาพของงานที่ส่งได้

  • “เพราะถ้าผู้เรียนมีเวลาทำการบ้านมากขึ้น งานก็จะออกมามีคุณภาพ แต่ถ้าหากให้เวลาทำการบ้านไม่เพียงพอ งานอาจออกมาไม่สมบูรณ์ก็เป็นได้”

  • “จากการวิเคราะห์ข้อมูล พบว่าผู้เรียนส่วนใหญ่มักส่งงานก่อนกำหนดประมาณ 1 วัน และมีการส่งงานเพิ่มขึ้นอย่างรวดเร็วในช่วงใกล้กำหนดส่ง ซึ่งอาจบ่งชี้ว่าผู้เรียนเร่งทำงานในช่วงสุดท้าย… ดังนั้น การเพิ่มเวลาให้ทำการบ้านอาจช่วยให้ผู้เรียนสามารถวางแผนการทำงานได้ดีขึ้น ลดความเร่งรีบ และอาจช่วยให้ผลการเรียนดีขึ้นในระยะยาว”

Feedback กิจกรรมในชั้นเรียน 2


กลุ่มที่ตอบว่า “ควร”

การเรียนรู้และทบทวนเพิ่มเติม : กลุ่มนี้เชื่อว่าการให้เวลาเพิ่มช่วยให้ผู้เรียนได้ใช้โอกาสในการศึกษาค้นคว้าหรือฝึกฝนทบทวนมากขึ้น

  • “จากข้อมูลพบว่า เวลาส่งงานอาจมีผลต่อผลการเรียน หากให้เวลามากขึ้น ผู้เรียนจะมีโอกาสทำความเข้าใจเนื้อหาดีขึ้น โดยเฉพาะคนที่พื้นฐานน้อย และยังช่วยลดความเครียดจากการเร่งส่งงาน”

  • “กลุ่มที่ใช้เวลาในการทำงานนานเป็นกลุ่มที่มีความรู้ต่ำ แต่การใช้เวลาในการทำงานนานทำให้มีนักเรียน Performance ดีกว่ากลุ่มอื่นๆ”

Feedback กิจกรรมในชั้นเรียน 3


กลุ่มที่ตอบว่า “ควร”

ความซับซ้อนของงาน : นิสิตบางคนมองว่าความซับซ้อนของการบ้านเป็นปัจจัยสำคัญที่ทำให้ควรเพิ่มเวลาน

  • “การบ้านหรือภาระงานมีความซับซ้อน นักเรียนจะต้องใช้เวลาในการวิเคราะห์และทำความเข้าใจเนื้อหา เพราะว่าผู้เรียนแต่ละคนมีทักษะการรับรู้และความรู้เดิมไม่เท่ากัน การที่ให้เวลาผู้เรียนช่วยให้ผู้เรียนสามารถคิดวิเคราะห์และพัฒนางานให้มีคุณภาพสูงขึ้น”

  • “จากความสัมพันธ์จะเห็นว่าช่วงเวลาที่นักเรียนส่งมีผลต่อความรู้ การส่งเร็วไม่ได้เป็นตัวการันตีคะแนน เพราะการส่งช้าก็อาจจะให้นักเรียนบางกลุ่มได้คะแนนดีเช่นเดียวกัน จึงควรให้เวลาทำการบ้านมากขึ้น”